Zitat Zitat von drunken monkey Beitrag anzeigen
Ich werde schon noch etwas dran rumbasteln, also wenn du Vorschläge hast, raus damit. Andere Möglichkeit: du baust sie selbst ein, ist schließlich OSS.

Also ich fand das mit den Artikeln schon recht interessant, genau wie den irren Vorsprung von "ich". Aber evtl. kann ich ja eine benutzerdefinierte Stopwortliste implementieren, und falls du eine zur Verfügung stellen kannst, die als Starthilfe beilegen. ^^
Man könnte natürlich verschiedene Datensätze erstellen - einmal einen ohne Stopwortliste und dann einen mit; das sollte in PHP ruckzuck gehen.

Hmm... Mit ein paar ordentlichen Klassifikatoren und gestaffelten Datensätzen (beispielsweise insgesamt/im letzten Jahr/im letzten Monat/pro (Jahr/Monat)) könnte man ein paar nette Statistiken aufstellen - beispielsweise, welche Sprachen wann am populärsten waren und wie viel Prozent aller Substantive eigentlich Fachjargon sind.

(BTW, da müßte man mal einen Admin anhauen, ob der einem über Nacht mal einen selektiven Datenbankdump anfertigen könnte (mit anonymisierten UIDs, versteht sich); das würde das Preprocessing stark vereinfachen.)

Zitat Zitat
Mache ich doch eh. o_O Gleich am Anfang von table_words() (Zeile 111) ersetze ich alle Sachen in spitzen Klammern, alle Escape-Sequenzen und alle Zeichen außer Buchstaben durch ein Leerzeichen.
Oder meintest du was anderes?
Ah. Code nicht gelesen und einen allgemeinen Vorschlag gemacht.